时空对称和能量摩托车...___XiaoMi-AI 助力科研平台

时空对称和能量摩托车...

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

时空对称和能量摩托车...

¥ 1.0

热度

马尔可夫决策过程（MDPS）我们假定无限 - 摩尼克折扣的MDP M =（s，a，p⋆，r⋆，γ，s Init）的标准符号为真实环境，其中s in Init是disteristion的初始状态W.L.L.O.G.所有奖励都被认为是在[0，r max]中界定的，而v max：= r max /（1 -γ）是累积奖励和价值函数上的上限。我们假设s很大，因此不适用表格方法。在大多数情况下，我们考虑有限和小动作空间，但有些主张也在大型动作空间中。给定策略π，其预期回报为jm⋆（π）：= em⋆，π[p∞t= 0γt r t]。有时，尤其是在反例中，考虑H-步骤有限的Horizon问题会更容易，其中预期的回报定义为（滥用符号）Jm⋆（π）：=eπ[p h h = 1 r h]。

添加pdf代下载 VIP点击下载文件